#google gemini
Google 發佈 Gemini 3.1 Flash-Lite:每秒 363 tokens,百萬 token 只要 $0.25
Google 剛發佈了 Gemini 3 系列的最新成員,Gemini 3.1 Flash-Lite,主打一個又快又便宜。這個模型有多快呢?輸出速度達到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍。簡單說就是,你話還沒問完,它答案都快出來了。價格也砍了快就算了,價格還降了。輸入 $0.25/百萬 tokens,輸出 $1.50/百萬 tokens。跟上一代比,輸入便宜了 17%,輸出便宜了 40%。這個價格在當前的大模型市場裡,已經屬於「白菜價」等級了。Google 的意思很明確:大規模呼叫的場景,用這個就對了。跑分不差便宜歸便宜,但跑分並沒有拉胯。在 Arena.ai 排行榜上拿了 1432 Elo,幾個關鍵基準測試的成績:GPQA Diamond(科學知識):86.9%MMMU Pro(多模態推理):76.8%Video-MMMU(視訊理解):84.8%MMMLU(多語言問答):88.9%LiveCodeBench(程式碼生成):72.0%Google 說它在推理和多模態理解上,超過了同等級的其他模型。考慮到它的價格,這個性價比確實有點離譜。動態思考Gemini 3.1 Flash-Lite 有個有意思的功能:動態思考等級(dynamic thinking levels)。開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務,用淺層推理就夠了,省錢省時間。生成 UI 介面、跑模擬這種複雜任務,就讓它深度思考。這就好比一個員工,簡單活兒不磨蹭,難的活兒也能啃下來,自己知道什麼時候該省力什麼時候該拚命。支援全家桶模態方面,Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入,上下文窗口 100 萬 tokens,最大輸出 64K tokens。基於 Gemini 3 Pro 架構打造,該有的能力都沒縮水。誰在用幾家早期合作夥伴已經在用了,包括 Latitude、Cartwheel 和 Whering。反饋是:表現接近高端模型的水準,能跟複雜指令,能保持上下文理解。Google 給它定位的典型場景包括:大規模翻譯、內容稽核、客服系統、資料分析,以及任何對延遲敏感的即時應用。Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。363 tokens/秒的速度加上白菜價的定價,Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)
GoogleGemini 3.1新模型深夜掀桌, 每秒狂飆363 token! 1/4價格暴擊Claude
【新智元導讀】Google深夜再放大招,Gemini 3.1 Flash-Lite正式登場。輸出速度363 token/s,價格僅0.25美元/百萬Token,跑分卻碾壓GPT-5 mini和2.5 Flash,堪稱最強「窮人版旗艦」。繼Gemini 3.1 Pro屠榜封神之後,Google又在深夜扔出一顆炸彈。剛剛,Gemini 3.1 Flash-Lite正式上線!速度363 tokens/s,輸出價格1.50美元/百萬Token,跑分直接碾壓GPT-5 mini和Claude 4.5 Haiku。同一任務下,相較於2.5 Flash(33分鐘),3.1 Flash-Lite僅用了4分鐘,token消耗最少,且正確率最高。毫不誇張地說,3.1 Flash-Lite幾乎可以做到「瞬時」輸出。上傳一份任何PDF、文字、圖片、視訊、音訊,它能極速轉成Markdown格式。又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚豔。目前,開發者已經可以通過Google AI Studio的Gemini API體驗預覽版,企業使用者可通過Vertex AI接入。用1/4的價格,跑出5倍的速度先看最直觀的數字。3.1 Flash-Lite的輸出速度達到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。而那些「貴族選手」呢?GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不過108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。換句話說,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,價格卻只有後者的四分之一。再看具體定價。3.1 Flash-Lite輸入0.25美元/百萬Token、輸出1.50美元/百萬Token。3.1 Flash-Lite比3.1 Pro便宜8倍對比之下,GPT-5 mini的輸出價格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高達5.00美元,整整貴了3倍還多。一句話概括:跑得比你快,還比你便宜,跑分還比你高。跑分碾壓,小模型的「越級挑戰」在最考驗科學知識和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轟出86.9%的高分。這一成績不僅碾壓了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把體量更大、價格更貴的Gemini 2.5 Flash(82.8%)也踩在了腳下。多模態理解方面同樣強悍。在MMMU-Pro測試中,Flash-Lite拿下76.8%,力壓GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。在事實精準性測試SimpleQA Verified中,差距更是斷崖級。Flash-Lite以43.3%的精準率遙遙領先,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。多語言能力方面,MMMLU測試中Flash-Lite以88.9%登頂,超過了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在這個價位段裡沒有對手。在視訊理解領域,Video-MMMU得分84.8%,同樣是同等級最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。當然,3.1 Flash-Lite也並非沒有短板。在LiveCodeBench程式碼生成測試中,Flash-Lite得分72.0%,雖然不低,但GPT-5 mini憑藉80.4%明顯更強,Grok 4.1 Fast也有76.5%。在Humanity's Last Exam中,Flash-Lite得分16.0%,與GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了這個等級的最高分。但別忘了一個核心事實:Flash-Lite的價格只有這些對手的幾分之一。Arena打進全球前40實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。在Chatbot Arena的文字競技場中,3.1 Flash-Lite以1432的Elo分數排名第36。它身邊的鄰居是o3(1432分)和GPT-5 High(1434分),而身後緊跟著的是Grok 4.1 Fast Reasoning(1430分)。一個定價0.25美元的輕量模型,Elo分數和OpenAI的旗艦推理模型o3打成平手,這個性價比足夠讓人震驚。在程式碼競技場中,3.1 Flash-Lite得分1261,排名並列35。它在這裡的對手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但確實還有提升空間。在Artificial Analysis評測中,3.1 Flash-Lite在輸出速度和成本效益上,目前業界最優。「思考深度」可調除了硬核性能,3.1 Flash-Lite還標配了thinking levels功能,開發者可以自由設定模型在每個任務上投入多少推理資源。批次翻譯、內容稽核、資料分類這類高頻低複雜度任務跑淺思考模式,速度和成本壓到極致。生成UI介面、建構模擬環境、執行多步驟複雜指令?切到深度推理模式,效果不輸大模型。實測:輕量模型的重量級表現在實際測試中,3.1 Flash-Lite展現出了遠超其定位的能力。電商場景:瞬間填滿原型圖。給出一句指令,Flash-Lite就能在幾秒內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。這在以往,需要設計師手動填充半天的工作,現在一個Prompt搞定。即時資料看板:天氣預報+歷史分析。Flash-Lite能夠結合最新的天氣預報介面和歷史資料,即時生成動態的天氣資料可視化看板。對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。SaaS AI智能體:多步任務自動化。Flash-Lite可以建構處理多步驟靈活任務的SaaS智能體,幫助企業自動化客戶工單處理、訂單跟蹤等流程。在低延遲和低成本的加持下,這類高頻呼叫場景正是Flash-Lite的主戰場。海量內容處理:快速分析歸類。面對大批次的圖片、文件、使用者評論等非結構化內容,Flash-Lite還能夠快速完成分析、標籤化和歸類整理。性價比賽道,徹底變天3.1 Flash-Lite的發佈,標誌著AI競爭進入了一個全新的階段。過去,各家大模型都在卷「誰最強」——ARC-AGI刷分、HLE拼推理、程式碼競賽爭排名。但Flash-Lite的出現,把戰場拉到了另一個維度。光卷性能已經不夠了。誰能用最低的成本交付最高的質量,誰才是真正的贏家。用幾分之一的價格打出旗艦級效果、用5倍的速度碾壓競品、在事實精準性上斷崖領先,Google用Flash-Lite告訴所有人:在性價比這條賽道上,它已經跑在了前面。而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。 (新智元)
Gemini 3.1 Pro突襲:推理能力翻倍,Google打響AI"小步快跑"第一槍
引言當行業還在期待GPT-5.3時,Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨,Google突然發佈Gemini 3.1 Pro大模型,這是其首次採用".1"小版本號,但升級幅度卻遠超預期。在ARC-AGI-2基準測試中,Gemini 3.1 Pro得分77.1%,是Gemini 3 Pro(31.1%)的2倍還多。這一突破不僅刷新了Google自身的技術紀錄,更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略:每百萬token輸入僅2美元,輸出10美元,這一價格直接對標Anthropic Sonnet 4.6,在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明,AI競爭不再是"參數軍備競賽",而是"效率與速度的比拚"。01 技術突破:推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力,而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼?這一測試專門評估AI系統的抽象推理能力,要求模型從有限示例中歸納出通用規則,並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型,更接近了人類專家的表現水平。對比之下,GPT-5.2在同一測試中的得分為68.3%,Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口,能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面,模型能夠直接生成3D版"椋鳥群飛"動畫,並支援手勢追蹤互動,實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯,而不僅僅是語法正確性。實測資料顯示,在處理複雜演算法重構、架構最佳化等任務時,Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義:從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號,這一看似微小的變化背後,是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上,大模型迭代以整數版本為單位,升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著,未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內,我們將看到更多".1"、".2"等級的快速迭代,而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言,這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破,企業需要能夠快速適配模型能力的持續最佳化,保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升,競爭不再侷限於"誰先發佈大版本",而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強,還是消費級應用的體驗最佳化,都將以更快的節奏呈現給終端使用者。03 定價策略:性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格,在保持性能領先的同時,實現了對競品的成本優勢。對比分析顯示:相比Anthropic Sonnet 4.6(輸入3美元、輸出15美元),Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo(輸入5美元、輸出15美元),成本優勢更加明顯在相同預算下,企業可以處理更多token量,實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷,而Gemini 3.1 Pro的親民定價,意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言,成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢,將吸引更多開發者加入Google生態,推動應用創新的繁榮。04 生態佈局:從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件,而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型,享受比前代更精準的複雜問題解答能力。實測顯示,在處理數學證明、邏輯推理、專業諮詢等任務時,新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型,享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度,確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力,Google推出了全新的創意工具套件,支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業,Google提供了基於Gemini 3.1 Pro的定製化解決方案,幫助企業在保持資料安全的前提下,享受AI技術帶來的效率提升。05 競爭格局:三巨頭技術路線的分化Gemini 3.1 Pro的發佈,進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力,Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中,Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性,在保持各方面能力均衡的同時,通過規模效應降低成本。但整數版本迭代周期較長,可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕,特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高,可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色,但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈,為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗:從"工具"到"思維夥伴"的進化對於一線使用者而言,Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中,模型能夠準確解答研究生等級的數學證明題,理解複雜的法律條文邏輯,提供專業的醫療諮詢建議。這種能力的提升,讓AI從簡單的資訊檢索工具,進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口,模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時,表現接近人類專家水平。創意表達更加豐富。在內容創作測試中,模型不僅能夠生成高品質的文字內容,還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力,為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示,Gemini 3.1 Pro的響應時間相比前代縮短30%,在處理複雜推理任務時,使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組(終於有人挑戰suno了),試了一下做一首30秒的武俠歌曲,完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望:AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈,不僅是一個產品的升級,更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現,意味著技術進步的顆粒度更加精細,迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力,將催生更多創新應用場景。從智能教育輔導到專業諮詢服務,從科學計算輔助到複雜決策支援,AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化,對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才,將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力,也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控,將成為行業必須面對的重要課題。結語Google的這次".1版本突襲",表面上是技術升級,深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代",整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升,不僅僅是技術參數的最佳化,更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代,能夠率先突破推理瓶頸、建構持續最佳化能力的企業,將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢,單點突破需要擴展為系統領先。對於全球AI產業而言,Gemini 3.1 Pro的發佈既是挑戰,也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點,能夠平衡技術創新與商業落地的企業,將引領行業進入更加成熟、務實的新階段。當矽谷醒來時,會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命,或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)
Google Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”?
人們還在津津樂道OpenAI和Anthropic兩家公司的老闆拒絕牽手,以至於握拳高舉的滑稽畫面,另一邊,Google一個反手迭代了模型。而且這次迭代,頗像是狼披上了羊皮——從模型後綴的數字序號看,這是Google最“小”的一次迭代,之前都是從Gemini 2.0到Gemini 2.5這樣的迭代,這次從Gemini 3.0到Gemini 3.1Pro Preview。但是這“.1”的迭代,進步得卻不是一星半點。GoogleCEO皮查伊(Sundar Pichai)表示,新代模型非常擅長處理“超級複雜的任務”。例如將複雜概念可視化、將資料綜合成單一檢視或者將創意項目變為現實。姚順宇也專門在X上發帖為Gemini 3.1 Pro Preview振臂,盛讚:“Gemini不僅僅是一個好模型,更好的模型正在以不可阻擋之勢到來。”需要注意的是,大約一周前,Google推出了“專用推理模式”Gemini 3 Deep Think,專為科學、研究、工程等複雜、開放式問題設計。Demini 3 Deep Think是姚順宇從Anthropic跳槽到GoogleDeepMind之後參與的第一個項目。而如今的Gemini 3.1 Pro Preview和Gemini 3 Deep Think有千絲萬縷的關係,官方表示“直接建構在Gemini 3 Deep Think的經驗和技術之上”。相當於把Deep Think的核心推理提升技術“下放”到更廣泛可用的Pro模型中。01Gemini 3.1 Pro Preview能做什麼既然這次新代模型的突出能力在處理“超級複雜”的任務,那麼普通的對話放一邊,Google的官方博文中,重點給出了幾種示例秀肌肉。第一,通過簡單的提示詞,建立SVG動畫。這個功能前代也有,但是對比之下進步明顯。比如提示詞“生成一個SVG,描繪一隻變色龍靜靜地坐在樹枝上。讓變色龍的眼睛跟隨使用者的滑鼠游標在螢幕上移動。”Gemini 3 Pro生成的動畫背景是單一的白色,變色龍也看起來很呆板,甚至一側有兩隻眼睛。Gemini 3.1 Pro生成的動畫則有豐富的“深綠色叢林”背景,變色龍身體有黃色斑紋和圓點裝飾,眼睛立體,腿部姿勢自然彎曲。再比如提示詞“生成一個滑動切換開關的SVG,當滑鼠懸停在太陽圖示上時,將其變成發光的月亮,同時背景從明亮平滑漸變到黑暗。採用乾淨的扁平UI風格。”Gemini 3 Pro給出的動畫雖然完成了任務,圖示可以隨滑鼠變化,但是主圖示單一,是一個缺角的圓形圖案,用黃色代表白天,白色代表夜間。Gemini 3.1 Pro生成的動畫要複雜得多,白天是黃日白雲,夜間是月牙繁星,兩套圖示絲滑變換。總而言之,Gemini 3 Pro做的動畫,讓人想起多年前那個“學了三年動畫”的梗。而Gemini 3.1 Pro交付的SVG動畫,已經達到了可以直接使用的效果。第二,建構工程等級系統。Gemini 3.1 Pro已經可以根據一段高複雜度的自然語言指令,直接生成一個集3D渲染、即時太陽星曆計算、API非同步拉取和物理光效於一體的完整互動系統,而不是簡單頁面demo。Google給出的示例中,使用者給出文字指令,Gemini 3.1 Pro生成了建構一個高保真、可互動的3D國際空間站(ISS)軌道追蹤器。使用高解析度的Blue Marble紋理貼圖渲染一個精細的3D地球模型。第三,生成互動式創意系統。在另一個示例中,Google展示了Gemini 3.1 Pro編寫的一個複雜的3D椋鳥群舞(murmuration)模擬。它不僅生成視覺程式碼,還建構了一個沉浸式體驗,使用者可以通過手部追蹤操控鳥群,並聆聽根據鳥群運動變化的生成式配樂。對於研究人員和設計師而言,這提供了一種強有力的方式來原型化感官豐富的介面。第四,將文學主題轉化為可運行的程式碼。這個示例可能是普通人也最容易get到厲害之處的一個。當被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》(Wuthering Heights)打造一個現代個人作品集網站時,該模型並未簡單地總結文字內容,而是基於小說的氛圍與情緒進行推理,設計出一個簡潔、當代感十足的介面,建立出一個捕捉主人公精神核心的網站。抽象推理,這種能力的含金量不用多說。02到底有多強?新代模型免不了過一下刷榜這一步。而“.1”的升級,獲得了動輒倍數躍升的成績。根據Google官方博文放出的測試結果,在ARC-AGI-2基準測試中,3.1 Pro的驗證得分達到了77.1%。比3 Pro的推理性能提升了一倍以上。這也符合3.1 Pro的示例,因為這個測試評估的是模型解決全新邏輯模式的能力。用人話說就是,抽象推理解謎的能力。此外,在GPQA Diamond(科學知識測試)中,3.1 Pro得分94.3%;智能體類基準MCP Atlas上,得分69.2%;真實網路瀏覽與資訊整合能力的基準BrowseComp上,得分85.9%。這些成績,均超過了Anthropic的Sonnet 4.6、Opus 4.6,以及OpenAI的GPT-5.2與GPT-5.3-Codex。GoogleGemini 3.1 Pro這次在ARC抽象推理和BrowseComp搜尋任務上顯著拉開差距,顯示出明顯的Agent傾向,而非單純知識模型。此外,專門做大模型基準測試與對比分析的第三方評測機構也發佈了相關測試結果,大讚Gemini 3.1 Pro在構成Artificial Analysis Intelligence Index的10項評測中領先6項,相較於Gemini 3 Pro Preview在多項能力上顯著提升,尤其是在推理與知識、程式碼能力以及降低幻覺方面進步最大。而且,Gemini 3.1 Pro Preview保持較高的token效率。運行完整Artificial Analysis Intelligence Index約需5700萬token(比Gemini 3 Pro Preview多100萬)。這一token使用量低於其他在最大推理模式下運行的前沿模型,如Opus 4.6(max)和GPT-5.2(xhigh)。結合更低的單token定價,Gemini 3.1 Pro Preview在前沿模型中具有成本優勢,運行完整Intelligence Index的成本不到Opus 4.6(max)的一半,不過仍約為領先開源模型GLM-5的兩倍。03能力翻倍價格不變Google官方API定價顯示,Gemini 3 Pro/3.1 Pro Preview的收費結構是按token計費的:小於200k tokens時,每百萬token輸入約2美元,輸出價格為4美元。大於200k tokens時,每百萬token輸入4美元,輸出18美元。在上下文快取方面,根據提示詞規模,每百萬 token 收取 0.20 至 0.40 美元,外加每小時每百萬 token 4.50 美元的儲存費。這個價格,整體上和Gemini自己的上一代3 Pro一致,但要是和 Anthropic Opus 系列比起來,還是相對便宜的。 Opus這類模型輸入/輸出單價能在$5/$25左右。尤其是結合當下它在模型能力上相當突出,這個價格更顯得極具競爭力。不要忘了,Google這次發佈的只是“預覽(Preview)”,Google很快就會推出正式版。而“.1”的迭代,Google也是在暗示其只是小秀肌肉。目前,開發者可以在AI Studio、Gemini API、Gemini CLI、智能體開發平台Google Antigravity以及Android Studio使用3.1 Pro;企業使用者則可以在Vertex AI和Gemini Enterprise使用;普通使用者在Gemini應用和NotebookLM都能用上,不過後者僅限Pro和Ultra訂閱使用者。各個社區裡已經有不少人迫不及待上手操作,真的就和Google的演示一樣,手搓了不少驚豔的玩意。有人用Gemini 3.1 Pro 生成了一個可互動的 3D 機械級汽車懸架系統模擬器,包含真實幾何結構、連桿約束與即時轉向和行程計算,相當於把機械工程建模、物理邏輯和3D可視化一次性寫成可運行工具,接近工程級原型能力。有人用3.1 Pro製作“捉鬼獵人走過一棟鬧鬼的房子”的循環動畫,驚呼“Gemini沒有開玩笑”。總之,Google這回是真憋了個大招。小小一個“.1”,卻把推理和程式碼能力拉得飛起,定價還這麼穩。社區裡滿溢的手搓demo的熱情,也證明了它的能力與實用性。AI圈越來越現實了。模型再強,終究得看帳單值不值。企業開始精打細算每個token的回報,開發者也得掂量掂量性價比。Google這一步,不僅是搶回王座,更是把競爭推向“誰更會過日子”的新階段。且看接下來,捏著拳頭的Anthropic和OpenAI,以及xAI、Meta、微軟等一眾競爭對手該如何應對吧。 (字母AI)
Google殺瘋了Gemini 3 推理模式封神,碾壓 GPT-5.2,科研工程界迎終極神器
2026 年 AI 科研賽道再迎王炸!Google官宣 Gemini 3 Deep Think 推理模式重磅升級,劍指科學研究與工程落地的複雜難題,多項基準測試成績直接刷新全球紀錄,不僅碾壓 GPT-5.2、Claude Opus 4.6 等競品,更達到世界頂尖程式設計師、奧賽金牌級水平。更重磅的是,Google首次開放該模式 API 早期訪問,科研人和工程師的效率天花板,直接被重新定義!實測封神!全維度霸榜,多項成績碾壓主流大模型此次升級的 Gemini 3 Deep Think,最硬核的底氣就是實打實的測試成績,在數學、物理、程式設計、抽象推理等全維度高難度基準測試中,實現全面霸榜,無工具加持下的表現堪稱驚豔。在抽象推理核心測試 ARC-AGI-2 中,它拿下 84.6% 的超高正確率,遠超 Claude Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%,成績直接斷層領先。“終極人類考試” 中,48.4% 的得分也甩開 Claude 的 40.0%、GPT-5.2 的 34.5%,盡顯高階推理實力。程式設計領域更是直接封神,Codeforces 競賽程式設計基準中斬獲 3455 的 Elo 評分,遠超 Gemini 3 原版的 2512 和 Claude 的 2352,達到世界頂尖程式設計師水準。而在 2025 年國際奧賽中,數學、物理、化學理論測試均拿下金牌級成績,物理更是達到 87.7% 的正確率,把 GPT-5.2 的 70.5% 遠遠甩在身後。就連多模態理解、凝聚態物理理論等偏門高難領域,它也表現亮眼,MMMU-Pro 測試 81.5% 正確率、CMT-Benchmark 50.5% 得分,均大幅領先主流競品,真正實現了 “文理通吃、科工全能”。直擊痛點!專為科研工程而生,破解真實場景難題Google此次升級並非單純的參數堆砌,而是精準瞄準科研和工程場景的核心痛點 —— 真實工作中資料雜亂、問題邊界模糊、需要長鏈路邏輯推理,而 Deep Think 就是為解決這些問題量身打造。它摒棄了大模型常見的 “表面化推理”,擁有更深度的邏輯鏈分析能力,能處理科研中複雜的因果推導、工程裡精密的流程最佳化。Google已展示其實際應用價值:協助數學家快速發現論文中的邏輯漏洞,從繁雜的公式推導中定位問題;助力工程師最佳化半導體晶體生長工藝,通過多維度資料分析找到工藝提升的關鍵節點。不同於普通大模型只能做 “輔助性文案工作”,Deep Think 能真正深度參與科研和工程的核心環節,從理論分析到實際落地,提供可落地、可驗證的解決方案,讓 AI 從 “工具” 變成真正的 “科研夥伴”。重磅開放!API 解鎖,兩類使用者率先嘗鮮在成績亮眼、應用落地的雙重加持下,Google此次也邁出了關鍵一步 —— 打破封閉,首次開放 Gemini 3 Deep Think 的使用權限,讓頂尖 AI 能力走出實驗室,真正服務於科研和產業界。目前該模式已面向Google AI Ultra 訂閱使用者全面開放,這類使用者可直接體驗全功能的深度推理能力。更值得關注的是,Google首次通過Gemini API,向部分研究人員、工程師及企業提供早期存取權,這意味著相關從業者可將該模型接入自有系統、科研平台,實現定製化的深度應用。從以往的 “專屬封閉” 到如今的 “有限開放”,Google的這一動作,也讓全球科研和工程界看到了頂尖 AI 技術普惠的可能,未來無論是高校的基礎研究,還是企業的工程落地,都有望借助這一工具實現效率躍升。行業震動!AI 科研工具迎來新拐點,競爭再升級Gemini 3 Deep Think 的升級與開放,不僅讓科研人和工程師迎來 “效率神器”,更在全球 AI 行業引發連鎖震動,讓大模型的競爭從 “通用能力比拚” 轉向 “專業場景深耕”。此前,主流大模型更多聚焦於通用對話、內容生成,在專業科研工程領域的表現始終差強人意,而Google此次精準卡位高難度專業場景,用實打實的成績證明了大模型在硬核領域的落地價值。這也給其他 AI 廠商指明了方向:單純的參數競賽已無意義,能解決真實專業問題的模型,才擁有真正的核心競爭力。對於科研和工程界而言,這一升級更是一場效率革命 —— 以往需要團隊數天甚至數月的邏輯推導、工藝最佳化、程式碼編寫,如今借助 Deep Think 可能幾小時就能完成,大大縮短了研究和開發周期。而隨著 API 的逐步開放,未來還將催生更多基於該模型的專業工具,推動科研和工程領域的智能化升級。從全維度霸榜的測試成績,到直擊痛點的場景落地,再到打破封閉的 API 開放,Google Gemini 3 Deep Think 的此次升級,每一步都踩在了 AI 行業的核心發展點上。它不僅展現了Google在大模型領域的技術領先,更讓我們看到了 AI 賦能硬核科研、推動產業升級的無限可能。隨著頂尖 AI 技術的逐步普惠,科研和工程的智能化時代,已然加速到來! (硬核科技喵)
Google最新大模型強力刷榜,Gemini 3.1 Pro把壓力給到OpenAI、Anthropic
上周,Google剛剛發佈了Gemini 3 Deep Think工具,旨在解決科學、研究和工程領域面臨的現代挑戰,今天,這款工具背後的核心智能模型——Gemini 3.1 Pro正式推出。此次發佈也是Google首次對Gemini模型進行“0.1”版本形式迭代,市場分析認為,今年該公司發佈策略可能會從定期發佈完整版本轉向更頻繁的增量升級。在廣受歡迎的“人類最後的考試”(Humanity's Last Exam)基準測試中,Gemini 3.1 Pro取得了創紀錄的44.4%的成績,上一代Gemini 3 Pro的成績為37.5%,而OpenAI的GPT 5.2的成績為34.5%,Anthropic的Opus 4.6成績為(40.0%)。在ARC-AGI-2 基準測試中,該測試旨在評估模型解決全新邏輯模式的能力,3.1 Pro的驗證得分達到了77.1%,比3 Pro的推理性能提升了一倍以上,這一結果也超越了GPT-5.2(52.9%)以及Opus 4.6(68.8%)。從官方披露的資料看,Google在多數指標上取得了業內領先優勢,但目前仍有個別基準測試的最好成績被OpenAI和Anthropic佔據,前沿大模型之爭十分焦灼。翻倍的性能和推理能力Google方面表示,3.1 Pro模型專為那些簡單答案不足以解決的任務而設計,它善於運用高級推理能力,幫助使用者應對最棘手的挑戰。無論是需要對複雜主題進行清晰直觀的拆解分析,還是需要將複雜資料整合到單一檢視中,亦或是需要將創意項目變為現實,官方給到一些典型應用案例如:基於程式碼的動畫:3.1 Pro可以直接根據文字提示生成可用於網站的動畫SVG。由於這些動畫完全由程式碼而非像素構成,因此無論縮放比例如何,它們都能保持清晰銳利,並且與傳統視訊相比,檔案大小也極小。複雜系統綜合:3.1 Pro利用高級推理技術彌合了複雜API與使用者友好設計之間的差距,該模型建構了一個即時航空航天儀表盤,成功配置了公共遙測流,可以可視化國際空間站的軌道。互動設計:3.1 Pro可生成複雜3D鳥群舞動畫,生成視覺程式碼並建構沉浸式體驗,使用者可通過手部追蹤操控鳥群,聆聽隨鳥群運動變化的生成式配樂,為研究人員和設計師提供建構感官豐富介面原型的強大方法。創意編碼:3.1 Pro可以將文學主題轉化為功能性程式碼,當被要求為《呼嘯山莊》建構一個現代個人作品集時,該模型並非簡單地概括文字,而是深入分析了小說的氛圍基調,設計出一個簡潔現代的介面,最終建立了一個能夠捕捉主人公精髓的網站。GoogleDeepMind工作人員還演示使用3.1 Pro開發逼真的城市規劃應用程式,該模型可以處理複雜地形、繪製基礎設施圖以及模擬交通資料,從而生成高品質的可視化效果。性價比打壓競爭對手對於開發者而言,3.1 Pro版本最引人注目的亮點不僅在於性能大幅提升,也在於其“性價比”。第三方分析平台Artificial Analysis的評估顯示,Google以更低的成本實現最先進的智能。3.1 Pro版本在人工智慧分析指數中得分最高,其最顯著的優勢在於價格和代幣效率,與Claude Opus 4.6 (max) 和GPT-5.2 (xhigh) 相比,Gemini 3.1 Pro Preview上的運行成本降低了50%以上。如果Google的慣例保持不變,那麼在不久的將來,其速度更快、成本更低的Flash模型很可能也會推出3.1版本更新。加盟Google的華人AI研究員姚順宇發推表示,更好的模型正以勢不可擋的速度湧現。One more Thing隨著大模型廠商的市場競爭加劇,頭部廠商CEO之間的關係並不融洽。在日前印度舉辦的人工智慧影響力峰會上,出現了本年度AI圈最尷尬一幕:OpenAI首席執行長Sam Altman和Anthropic首席執行長Dario Amodei拍照時明顯拒絕牽手,而是雙雙舉起了拳頭,台上其他AI廠商領袖(如Google、Meta)則在拍攝合影時都儀式性挽著胳膊。今天,兩人不和的合影畫面迅速在社交媒體上流傳開來,網友調侃,什麼時候能實現AGI?可能得等到Sam和Dario牽手那天。2026年2月12日,Anthropic完成G輪融資籌集了300億美元,投後估值達3800億美元,該公司透露已實現140億美元的年化收入規模。據彭博社最新爆料,OpenAI正在籌備新一輪融資,據悉此次融資規模有望達1000億美元,公司整體估值可能超過8500億美元,OpenAI首席財務官Sarah Friar此前表示,公司2025年年化營收已超200億美元。面對Google的強力競爭,兩大AI獨角獸都紛紛加碼投入不敢絲毫鬆懈迭代步伐。在本年開局的首輪大模型PK賽中,國內外主流廠商的旗艦模型再次刷出性能新高度,目前備受網友期待的便是傳聞的DeepSeek新一代模型V4,能否創造出更多驚喜可以拭目以待。 (頭部科技)
Google發佈Lyria 3 AI音樂模型,Gemini一鍵生成30秒高保真歌曲
Google旗下DeepMind發佈了最新AI音樂生成模型Lyria 3,該模型已率先整合至Gemini桌面端應用,未來幾日將逐步登陸移動端,面向全球18歲及以上使用者免費開放。據悉,作為Lyria系列模型的重大升級版本,Lyria 3支援通過文字、圖片、視訊等多模態輸入生成原創音樂,進一步降低了音樂創作的專業門檻,同時聯動YouTube生態,為內容創作者提供全新工具。根據官方介紹,Lyria 3相較於前代模型實現了三大核心升級。首先,該模型支援自動生成歌詞,使用者無需自行撰寫,只需通過提示詞描述音樂的主題、風格或情緒,模型便可自動創作匹配的歌詞與旋律。其次,使用者可實現更精細的創作控制,通過提示詞精準指定曲風、人聲類型、節奏速度等音樂元素。此外,Lyria 3生成的音軌在樂器層次、人聲真實感和音樂結構上均有顯著提升,音質更接近專業製作水準,打破了前代模型輸出內容相對單薄的侷限。在使用場景與操作便捷性上,使用者只需打開Gemini應用,在“工具”下拉菜單中找到帶有音符圖示的“音樂”選項,即可啟動創作功能,Google同步發佈的Lyria 3提示詞指南,可幫助使用者快速上手。此外,Lyria 3不僅整合於Gemini應用,還同步接入了YouTube的Dream Track功能,助力短影片創作者為Shorts生成定製化背景音樂,該功能此前僅面向美國使用者,此次隨Lyria 3的發佈向全球擴展。此外,開發者可通過Google Cloud上的Vertex AI API使用Lyria模型(當前API版本為lyria-002),以程式設計方式生成音樂,適配視訊配樂、廣告創作、遊戲音效製作等商業場景。使用權限方面,Lyria 3目前支援英語、德語、西班牙語、法語、印地語、日語、韓語和葡萄牙語8種語言,後續將逐步增加更多語言支援。所有18歲及以上的Gemini使用者均可免費使用該功能,而訂閱Google AI Plus、AI Ultra等付費服務的使用者,將享有更高的音樂生成額度,具體額度Google暫未明確披露。 (TechWeb)
Google,再掀AI戰火
周三(2月18日)美股盤中,Google在官網部落格中宣佈,Gemini應用已配備公司最先進的音樂生成模型Lyria 3,使用者可使用文字或圖像製作30秒的音樂片段。新聞稿稱,“只需描述一個想法或上傳一張照片,Gemini就能在幾秒鐘內將其轉化為一首高品質、朗朗上口的歌曲。為了進一步拓展創意空間,您甚至可以讓Gemini從上傳的內容中汲取靈感。”根據Google的說法,Gemini不僅可以“文字轉歌曲”,還可以通過“上傳照片或視訊”創作一首完美契合氛圍的歌曲,歌曲長為30秒,並配有Nano Banana設計的自訂封面。另外,創作者還可以通過YouTube的Dream Track功能探索Lyria 3,以提升Shorts短影片配樂的品質。Google稱,Lyria 3已在美國推出,並正在逐步推廣至其他地區的創作者。Google提到,Lyria的音訊生成功能採用了公司最新的隱私和安全特性,所有生成的曲目都使用SynthID技術加入了不易察覺的水印,可以檢測音樂是否由人工智慧創作或編輯。消息公佈後,歐美主流串流媒體音樂服務平台Spotify(股票程式碼:SPOT)股價回吐了日內近5%的漲幅,Sirius XM(股票程式碼:SIRI)也一度轉跌。有分析表示,雖然Google的音樂生成模型預計不會成為Spotify的致命打擊,但這些舉措可能迫使後者盡快推出AI混音功能。另外,把音訊創作工具加入移動應用,有望增強Google的消費者產品競爭力。對於Google來說,公司需要持續向投資者證明其AI產品投入能夠帶來收入增長。生成式AI工具在音樂行業一直受到謹慎甚至敵視的對待,許多從業者認為其可能威脅商業模式和智慧財產權。Google在部落格中強調,其系統設有保護措施,禁止AI直接挪用特定藝術家的作品。如果使用者點名真實音樂人,Gemini只會將其視為“廣泛的創作靈感來源”,生成風格或氛圍與之相似的曲目。 (財聯社)